了解資料的分佈,有助於我們進行資料清洗或者Machine Learning演算法的選擇。例如,Gaussian Naive Bayes假設資料的分佈是常態分佈。
Normal Distribution
常態分佈也稱作高斯分佈(Gaussian),是昨天提到的Numerical Continuous的資料分佈方式。常態分佈呈現鐘形的分佈,一般會用平均值和標準差來描述資料的常態分佈。另外,著名的中央極限定理,告訴我們大量的抽樣資料之後,資料會趨向於常態分佈。
Poisson Distribution
針對Numerical Discrete這一類的離散型資料分佈,可以透過Poisson Distribution來呈現。
Bernoulli Distribution
如果資料分佈是二元類型(非A即B),則可以透過Bernoulli Distribution來觀察資料的分佈。
Binomial Distribution
試驗多次的Bernoulli實驗,可得到Binomial Distribution。
這邊附上ChatGPT情境作答題:
情境1:正態分佈(Normal Distribution)
一間工廠生產的產品的尺寸分佈呈現出典型的鐘形曲線,其中大多數產品的尺寸接近平均值。這種情況最適合描述以下哪種分佈?
A) 泊松分佈(Poisson Distribution)
B) 正態分佈(Normal Distribution)
C) 伯努利分佈(Bernoulli Distribution)
D) 二項分佈(Binomial Distribution)
答案:B) 正態分佈(Normal Distribution)
情境2:泊松分佈(Poisson Distribution)
在一家網站上,每小時平均有 5 個用戶提交問題報告。你想知道在下一小時內會有多少問題報告提交。這種情況最適合描述以下哪種分佈?
A) 泊松分佈(Poisson Distribution)
B) 正態分佈(Normal Distribution)
C) 伯努利分佈(Bernoulli Distribution)
D) 二項分佈(Binomial Distribution)
答案:A) 泊松分佈(Poisson Distribution)
情境3:伯努利分佈(Bernoulli Distribution)
在一個硬幣投擲實驗中,你想知道硬幣正面朝上的機率。這種情況最適合描述以下哪種分佈?
A) 泊松分佈(Poisson Distribution)
B) 正態分佈(Normal Distribution)
C) 伯努利分佈(Bernoulli Distribution)
D) 二項分佈(Binomial Distribution)
答案:C) 伯努利分佈(Bernoulli Distribution)
情境4:二項分佈(Binomial Distribution)
一個廣告活動的點擊率是 10%,你想知道在 100 次廣告顯示中有多少次會被點擊。這種情況最適合描述以下哪種分佈?
A) 泊松分佈(Poisson Distribution)
B) 正態分佈(Normal Distribution)
C) 伯努利分佈(Bernoulli Distribution)
D) 二項分佈(Binomial Distribution)
答案:D) 二項分佈(Binomial Distribution)
情境5:正態分佈(Normal Distribution)
身高的分佈在一個大型人口中呈現出典型的鐘形曲線,其中大多數人的身高接近平均值。這種情況最適合描述以下哪種分佈?
A) 泊松分佈(Poisson Distribution)
B) 正態分佈(Normal Distribution)
C) 伯努利分佈(Bernoulli Distribution)
D) 二項分佈(Binomial Distribution)
答案:B) 正態分佈(Normal Distribution)